第 3 章 · 涌现能力（三）-涌现的边界

第3章第6节涌现能力（三）-涌现的边界

阅读指南

上篇让你直观感受了涌现能力的震撼，中篇探讨了涌现的机制和Scaling Laws。

下篇将讨论：

涌现的边界：什么能力不会涌现？
令人不安的一面：涌现的不可预测性
趣闻：Scaling Laws论文背后的故事
推荐阅读与下节预告

6.1 涌现的边界

最后，强调一点:不是所有能力都会通过扩大规模涌现出来。

有些能力，可能永远不会涌现，或者需要完全不同的训练方式。

可能不会涌现的能力：

真正的"理解"（如果它确实存在的话）

模型展现出了很多"看起来像理解"的行为，但它是否真的"理解"意义?

这可能不是规模能解决的，而是需要根本性的架构改变。

长期规划和一致性

ChatGPT能做多步推理，但如果要求它维持一个长篇小说的情节一致性，或者规划一个跨越几年的项目，它仍然会出问题。

这可能需要新的记忆机制和规划机制。

如果大模型真的能维持很长的记忆，并能连续推理，那这我这本书也不用吭哧吭哧的写1年了。那时候可能人人都能写出世界名著。

与真实世界的交互

ChatGPT学到的都是"文本中的世界",它不知道"拿起一个杯子"是什么感觉，不知道"红色"真正看起来是什么样。这需要多模态学习(视觉、听觉、触觉。..)和与真实世界的交互。

AI界对此存在两种分歧:

第一种观点：沿着Transformer架构继续扩大，期待新能力涌现
第二种观点：Transformer已触及天花板，AI必须从真实世界学习，而非只是反复学习文本

这是两条截然不同的路，未来会证明谁对谁错。

6.2 趣闻：Scaling Laws论文——一个差点被拒稿的"赌局"

你可能想不到，那篇奠定了整个大模型时代基础的论文，差点就被学术界拒之门外。

2020年1月，OpenAI发表了一篇看起来很"简单"的论文：《Scaling Laws for Neural Language Models》（神经语言模型的扩展定律）。

论文的核心发现，用一句话就能说完：

"模型的性能与参数量、数据量、算力之间，存在可预测的幂律关系。"

这篇论文在评审时遇到了很大的阻力。主要质疑包括:

质疑1:"这不就是拟合曲线吗?"

批评者认为:你只是在小模型上观察到一些数据点

然后画了一条曲线，凭什么说它能一直成立？

质疑2:"外推太大胆"

你在100亿参数的模型上发现规律

就敢预测1000亿、10000亿参数的效果？

这种外推太危险了

质疑3:"实用价值有限"

即使规律成立，又怎么样呢？

谁会真的去训练那么大的模型？

成本太高，不切实际

但OpenAI做了一个大胆的决定：相信这个规律，全力押注大模型。

2020年5月：在一些质疑声中，论文发表
2020年6月：OpenAI开始训练GPT-3（175B参数）
→ 这是当时最大的模型，参数量是之前的10倍以上
→ 训练成本：数百万美元
→ 如果Scaling Laws不成立，这笔钱就打水漂了

2020年7月：GPT-3发布
→ 性能完全符合Scaling Laws的预测！
→ 学术界震惊：这个规律真的成立！

OpenAI的研究人员后来透露：

"当我们决定训练GPT-3时，内部也有很多争论。因为根据Scaling Laws，我们能预测性能会提升多少，但不知道这个提升是否足够产生质变。"

"我们是在'赌'涌现现象会发生。"

结果，他们赌对了。GPT-3不仅性能提升了，还出现了很多小模型完全没有的能力（如只需要几个例子就能学会新任务、代码生成等）。

论文的"复仇"

2020年初：论文被质疑"缺乏实用价值"
2020年末：GPT-3震惊世界，各大公司开始疯狂训练大模型
2021年：谷歌、Meta、微软纷纷发布百亿/千亿参数模型
2022年：ChatGPT发布，引爆AI革命
2023年后：这篇论文成为大模型时代的"基石"
几乎每篇大模型相关论文都会引用它

从"差点被拒"到"改变世界"，只用3年。

如果当时放弃了呢？唯一可以肯定的是：

大模型时代可能要推迟好几年。

6.3 推荐阅读

《Scaling Laws for Neural Language Models》(2020) - OpenAI关于模型性能与规模关系的开创性论文

6.4 下节预告

涌现能力中有一个尤其特殊的能力——情境学习。

它特殊在哪？

你不需要重新训练模型，只需在提示词中给几个例子，模型就能学会一个新任务。

这意味着，你不需要收集大量标注数据，也不需要花费数周时间训练。只需要在对话框里打几行字，模型就"学会"了。

下一节，我将带你深入这个革命性的能力。

6.5 ■ 学点英语

中文	English	音标	说明
涌现边界	Emergence Boundary	/ɪˈmɜːdʒəns ˈbaʊndri/	仅靠扩大规模无法获得的能力所形成的上限
多模态	Multimodal	/ˌmʌltiˈməʊdl/	同时处理文本、图像、音频等多种模态的能力
长期记忆	Long-term Memory	/lɒŋ tɜːm ˈmeməri/	跨会话、跨年度保持信息一致的能力
因果	Causality	/kɔːˈzæləti/	输入对输出的驱动关系，与相关性相区分
真实世界交互	Real-world Interaction	/ˈrɪəl wɜːld ˌɪntərˈækʃn/	与物理世界或动态环境进行行动与反馈的过程
规划	Planning	/ˈplænɪŋ/	针对长期目标制定多步骤行动序列的能力
智能体	Agent	/ˈeɪdʒənt/	可感知环境、决策并执行动作的 AI 系统
幻象	Mirage	/ˈmɪrɑːʒ/	涌现“假象”的典型比喻，对应 Schaeffer 2023 论文

6.6 ■ 思考帧

◀ 涌现能力（二）-为什么会涌现

返回目录

▶ Context Learning

第3章 第6节 涌现能力（三）-涌现的边界